Prism: inferencia multi-LLM eficiente con ballooning de memoria GPU Descubre cómo Prism reduce costos en inferencia de múltiples LLMs mediante ballooning de memoria GPU, optimizando recursos sin sacrificar SLO. ¡Más eficiencia! 2026-06-12 · 2 min